Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
16.05.2024
Размер:
1.09 Mб
Скачать

1

Лекция №4

ПРОВЕРКА ГИПОТЕЗ СОГЛАСИЯ РАСПРЕДЕЛЕНИЙ

1. Возможные постановки задач

Гипотезы согласия распределений формулируются, как правило, в рамках следующих задач.

Задача 1. Дана выборка

X объема n из

некоторой генеральной

совокупности. На некотором числе -

m интервалов группирования получены

гистограмма относительных

частот

f * (x)

и

эмпирическая функция

распределения F * (x) . Выдвигаются две гипотезы:

 

H0 : f * (x) f (x) H1 : f * (x) f (x)

или F * (x) F (x) , или F * (x) F (x) ,

где f (x) - известная генеральная плотность вероятности; F (x) - известная генеральная функция распределения.

Задача 2. Даны две выборки X и Y объемов n1 и n2 из некоторых генеральных совокупностей. Выдвигаются две гипотезы:

H0 : f (x) f ( y)

или

F (x) F ( y) ,

H1 : f (x) f ( y)

или

F (x) F ( y) ,

где f (x) , f ( y) - неизвестные генеральные плотности вероятности; F (x) , F ( y) - неизвестные генеральные функции распределения.

Частные случаи параметризации второй постановки задачи:

1) Задача сдвига: Пусть f (x) f ( y ) . Выдвигаются две гипотезы:

H0 : 0 ,

H1 : 0 .

2) Задача масштаба: Пусть f (x) f ( y ) . Выдвигаются две гипотезы:

H0 : 1,

H1 : 1.

Л 4 Математическая статистика. Стаценко И.В.

2

0.4

0.3

f(x)

0.2 f1(x)

0.1

5

3.625

2.25

0.875 0.5

1.875

3.25

4.625

6

 

 

 

x

 

 

 

 

Рис. 1. Задача сдвига на примере нормальных распределений 1.

0.4

0.3

f(x)

0.2

f1(x)

0.1

7

5.25

3.5

1.75

0

1.75

3.5

5.25

7

 

 

 

 

x

 

 

 

 

Рис. 2. Задача масштаба на примере нормальных распределений 2.

Среди сотен критериев согласия наиболее известными являются в задаче I) неранговые критерии: хи-квадрат, Колмогорова-Смирнова, а в

задаче II) ранговые критерии: Вилкоксона-Манна-Уитни, Ван дер Вардена, Муда. Нуль-гипотеза задачи сдвига может также проверяться с использованием Т-статистики Стьюдента (о равенстве средних), дисперсионного анализа, а нуль-гипотеза задачи масштаба может проверяться с использованием F-статистики Фишера (проверка однородности дисперсии). В отличие от критериев Фишера и Стьюдента, использующих выборки из нормальных генеральных совокупностей, ранговые критерии являются свободными от распределения, те есть более универсальными по отношению к множеству предъявления.

Л 4 Математическая статистика. Стаценко И.В.

3

2. Критерий согласия хи-квадрат (Пирсона)

Критерий хи-квадрат ( 2 ) используется в рамках постановки рассмотренной задачи 1 для следующих двух гипотез:

 

H

0

: f * (x) f (x) ,

 

 

 

 

 

 

 

 

H : f * (x) f (x) .

 

 

 

1

 

 

 

Статистика критерия имеет вид:

 

 

2

 

 

m

pi* pi 2

(1)

 

n

,

 

 

 

 

i 1

pi

 

где pi - теоретическая вероятность попадания генерального признака X в

i - й интервал группирования для гистограммы относительных частот, построенной на m интервалах; pi* - относительная частота попадания выборочных значений в i - й интервал группирования; n - объем выборки.

Статистика 2 имеет распределение хи-квадрат с числом степеней свободы k m l 1, где l - число оцениваемых (неизвестных) параметров

генерального

распределения.

Гипотеза

H0 принимается

на уровне

значимости , если выполняется условие:

 

 

 

 

 

 

 

2 2

 

m l 1 ,

(2)

 

 

 

 

 

 

 

1

 

 

 

где

2

m l 1

квантиль

уровня 1 распределения

хи-квадрат с

 

1

 

 

 

 

 

 

 

 

 

 

 

числом степеней свободы

 

m l 1

 

. Таким образом, критическая область

 

 

 

 

 

 

 

 

 

 

 

для данного критерия правосторонняя.

Замечание 1: учитывая то обстоятельство, что пороговое значение статистики хи-квадрат зависит от величины m - числа интервалов группирования гистограммы относительных частот, статистику применяют, как правило, если на каждом интервале группирования выполняется условие: npi 5 .

Пример 1. Группированный ряд относительных частот некоторого признака Z представлен в таблице:

 

 

 

 

 

 

 

 

 

 

 

 

zi

3; 2

 

2; 1

 

1; 0

0;1

1; 2

2; 3

 

 

p*

2 / 90

 

14 / 90

 

24 / 90

31/ 90

16 / 90

3/ 90

 

 

i

 

 

 

 

 

 

 

 

 

На уровне значимости

0,05 с использованием критерия хи-квадрат

проверить гипотезу о

согласии

данного

эмпирического

распределения с

Л 4 Математическая статистика. Стаценко И.В.

4

табличным нормальным распределением: Z N 0,1 . Объем выборки

n 90.

Решение:

1. Визуализация распределения по гистограмме

Рис. 3. Ненормализованная гистограмма относительных частот

2. Расчет критерия 2 :

Представим таблицу эмпирических и теоретических частот попадания случайной величины Z в интервалы группированного ряда

 

 

 

 

 

 

 

z

3; 2

2; 1

1; 0

0;1

1; 2

2; 3

i

 

 

 

 

 

 

pi*

2 / 90

14 / 90

24 / 90

31/ 90

16 / 90

3/ 90

pi

0,021

0,136

0,341

0,341

0,136

0,021

 

 

2 / 90 0,021

2

14 / 90 0,136

2

 

 

 

 

3 / 90 0,021

2

 

 

2 90

 

 

...

 

 

3, 491

 

 

 

 

 

 

 

 

0,021

 

 

0,136

 

 

 

 

 

0,021

 

 

 

 

 

 

 

0,95

 

0,95

 

 

 

 

 

 

 

 

 

 

2 3, 49 ;

 

 

 

 

 

 

 

Ответ 1:

2

6 0 1

2

 

 

5

 

11,07 .

 

 

 

Так как

 

2 0,952 5

гипотеза согласия принимается.

 

 

 

Л 4 Математическая статистика. Стаценко И.В.

5

Заметим, что для крайних значений ряда относительных частот не выполняются условия замечания 1, так как npi 5 (для первого столбца n 2, p1 0,021). Перегруппируем интервальный ряд в виде:

i

 

 

 

 

 

 

 

z

 

3; 1

 

1; 1

1; 3

 

 

 

 

 

 

 

 

 

 

pi*

16 / 90

 

55 / 90

19 / 90

Найдем теоретические вероятности попадания стандартной нормальной величины в новые интервалы:

i

 

 

 

 

 

 

 

 

z

 

3; 1

 

1; 1

1; 3

 

 

 

 

 

 

 

 

 

 

pi*

16 / 90

 

55 / 90

19 / 90

pi

0,157

 

0,683

 

0,157

Далее получим 2 2,572 .

Ответ 2: 2 2,572 ; 0,952 3 0 1 0,952 2 5,99 .

Так как 2

0,952

2 гипотеза согласия принимается.

3. Критерий Вилкоксона-Манна-Уитни

Фрэнк Уилкоксон 1892-1965 гг– американский химик и статистик, Манн Генри Бертольд 1905-2000 гг– австрийский и американский математик и статистик,

Дональд Рансом Уитни 1915-2001 американский статистик.

Критерий Вилкоксона-Манна-Уитни используется для рассмотренной задачи 2 (в задаче сдвига). Даны две выборки X и Y объемов n1 и n2 из

некоторых генеральных совокупностей.

Статистика W данного критерия работает с последовательностью рангов объединенной выборки. Расположим n1 n2 значений объединенной

выборки в порядке возрастания. Каждому элементу выборки присвоим свой ранг – номер в ряде. Если несколько элементов выборки равны по значению, то каждому из них присваивается ранг равный среднему арифметическому их номеров в объединенном (вариационном) ряде.

Л 4 Математическая статистика. Стаценко И.В.

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть

R1 - сумма рангов элементов первой выборки в вариационном

ряде; R2 - сумма рангов элементов второй выборки в вариационном ряде.

Найдем вспомогательные величины:

 

 

 

 

 

 

 

 

 

 

 

w n n

 

n1

n1 1

R ,

 

 

 

 

(3)

 

 

 

 

 

 

 

 

 

 

 

 

1

1

2

 

 

 

 

 

 

2

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w n n

 

n2 n2

1

R .

 

 

 

 

(4)

 

 

 

 

 

 

 

 

 

 

 

 

 

2

1

2

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее

определяют

величину

wн min w1, w2 . В

таблице (см.

Приложение 1) приводятся величины

p P W wн

/ H0

для

выборок

n1 n2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В задаче сдвига f (x) f ( y ) для гипотез

 

 

 

 

 

 

 

 

 

 

 

 

H0 : 0 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H1 : 0 ,

 

 

 

 

 

 

 

нуль-гипотеза отклоняется,

если

p / 2, где

 

- заданный

уровень

значимости.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если

объем каждой

 

выборки

больше

8,

то

проверку

гипотезы

H0 можно проводить, используя статистику

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W 0,5n1n2

 

 

 

 

 

 

Z

12

 

.

 

 

 

(5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1n2 n1 n2 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Статистика

имеет нормальное распределение

с

параметрами

mz 0 ;

z 0 (табличное нормальное распределение).

Взадаче сдвига f (x) f ( y ) для гипотез

H0 : 0 ,

H1 : 0 ,

нуль-гипотеза отклоняется, если

 

zн

 

u1 /2 ,

где - заданный

уровень

 

 

значимости;

zн Z (wн );

u1 /2 -

 

квантиль

табличного

нормального

распределения уровня 1 / 2 .

 

 

 

 

 

 

 

 

 

Примечание. В

задаче

 

сдвига f (x) f ( y )

для

гипотез

H0 : 0 ,

H1 : 0,

 

 

u1 , где -

нуль-гипотеза отклоняется, если

zн

 

заданный уровень значимости;

zн Z (wн );

u1 - квантиль табличного

нормального распределения уровня 1 .

 

 

 

 

 

Л 4 Математическая статистика. Стаценко И.В.

7

Пример 2.

Дано: две выборки из некоторых генеральных совокупностей

 

X

 

 

 

 

 

 

 

 

 

 

 

 

3,

5,

5,

6,

7,

7,

8 ;

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

1,

2,

4,

4,

6,

8,

9 .

Сформулируем гипотезы

H0 : 0 ,

H1 : 0 ,

для уровня значимости 0,05

в задаче сдвига f (x) f ( y ) .

Решение:

Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:

номера

1

2

3

4

5

6

7

8

9

10

11

12

13

14

ранги

1

2

3

4,5

4,5

6,5

6,5

8,5

8,5

10,5

10,5

12,5

12,5

14

выборка

1

2

3

4

4

5

5

6

6

7

7

8

8

9

R1 58 - сумма рангов элементов первой выборки в вариационном ряде; R2 44 - сумма рангов элементов второй выборки в вариационном ряде.

w n n

n1 n1

1

R

19

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

2

2

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w n n

 

n2 n2

1

R

 

33 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

1

2

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

min w1, w2 19 .

 

 

 

 

 

 

 

 

 

 

 

P 0, 267 ( см. Приложение 1

для n n

7 и min

 

w , w

 

19 ),

Т

 

 

 

 

 

 

 

 

 

 

1 2

 

1 2

 

Ответ:

так как

P 0, 267 0,025

нуль-гипотеза об отсутствии

 

 

 

 

 

 

Т

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сдвига принимается.

Л 4 Математическая статистика. Стаценко И.В.

8

Пример 3.

Дано: две выборки из некоторых генеральных совокупностей

 

X

 

 

 

 

 

 

 

 

 

 

1,

2,

3,

4, 5, 5, 8

 

;

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

4,

6,

6,

7, 7, 8,

9 .

Сформулируем гипотезы

H0 : 0 ,

H1 : 0 ,

для уровня значимости 0,05

в задаче сдвига f (x) f ( y ) .

Решение:

Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:

номера

1

2

3

4

5

6

7

8

9

10

11

12

13

14

ранги

1

2

3

4,5

4,5

6,5

6,5

8,5

8,5

10,5

10,5

12,5

12,5

14

выборка

1

2

3

4

4

5

5

6

6

7

7

8

8

9

R1 33 - сумма рангов элементов первой выборки в вариационном ряде; R2 69 - сумма рангов элементов второй выборки в вариационном ряде.

w n n

n1 n1

1

R

44

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

2

2

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w n n

 

n2 n2

1

R

 

8 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

1

2

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

min w1, w2 8.

 

 

 

 

 

 

 

 

 

 

 

 

P 0,019 ( см. Приложение 1

для n n

7 и min

 

w , w

 

8),

Т

 

 

 

 

 

 

 

 

 

 

1 2

 

1 2

 

Ответ:

так как

P 0,019 0,025

нуль-гипотеза об отсутствии

 

 

 

 

 

 

Т

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сдвига отклоняется.

Л 4 Математическая статистика. Стаценко И.В.

9

4. Критерий Муда (Mood A.M.)

Критерий Муда используется для рассмотренной задачи 2 (в задаче масштаба). Даны две выборки X и Y объемов n1 и n2 из некоторых

генеральных совокупностей. Критерий применяется в условиях, когда для тех же выборок подтвердилась нуль-гипотеза в задаче сдвига. Статистика критерия имеет вид:

ˆ

m

 

 

n1 n2

1 2

 

M Rxi

 

2

 

 

,

(6)

 

i 1

 

 

 

 

 

 

где Rxi - ранги элементов первой выборки в объединенном вариационном

ряду; n1 n2 .

В задаче масштаба f (x) f ( y ) для гипотез

H0 : 1,

H1 : 1,

нуль-гипотеза принимается, если т1 p

 

ˆ

m2

p , где

 

 

p 1 , -

M

 

 

заданный уровень значимости. Величины

 

 

т1 p , m2 p приведены в

таблице Приложения 2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M M

 

ˆ

 

 

0,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M

 

При

n , n 10

 

 

величина

M *

 

 

 

 

 

 

 

 

 

 

 

 

имеет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

D M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение близкое к нормальному, где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

n1 n1 n2 1 n1 n2 1

 

 

 

 

 

 

 

 

 

 

 

M M

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

(7)

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

n1n2 n1 n2 1 n1 n2 2 n1 n2 2

 

 

 

D M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

(8)

 

 

 

 

 

 

 

 

180

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нуль-гипотеза принимается, если

 

M

*

 

u

 

 

,

где

 

-

заданный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 /2

 

 

 

 

 

 

 

 

 

 

уровень значимости; u1 /2 - квантиль табличного нормального распределения уровня 1 / 2 .

Л 4 Математическая статистика. Стаценко И.В.

10

Пример 4.

Дано: две выборки из некоторых генеральных совокупностей

 

X

 

 

 

 

 

 

 

 

 

 

 

 

3,

5,

5,

6,

7,

7,

8 ;

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

1,

2,

4,

4,

6,

8,

9 .

Для данных выборок подтверждена нуль-гипотеза в задаче сдвига см. пример

2.

Сформулируем гипотезы

H0 : 1,

H1 : 1,

для уровня значимости 0,05

в задаче масштаба f (x) f ( y ) .

Решение:

Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:

номера

1

2

3

4

5

6

7

8

9

10

11

12

13

14

ранги

1

2

3

4,5

4,5

6,5

6,5

8,5

8,5

10,5

10,5

12,5

12,5

14

выборка

1

2

3

4

4

5

5

6

6

7

7

8

8

9

Найдем М статистику

ˆ

m

 

 

n1 n2

1 2

 

 

 

15 2

 

 

 

 

15 2

 

 

15 2

 

M Rxi

 

2

 

 

 

3

 

 

 

2

 

6,5

 

 

 

... 12,5

 

 

 

66, 25

 

i 1

 

 

 

 

 

 

 

2

 

 

 

 

2

 

 

2

 

В таблице Приложения 2 для n1 n2

7 найдем:

т1 0,95 60;

m2 0,95 168.

 

Ответ: Так как

ˆ

p нуль-гипотеза принимается.

т1 p M m2

Л 4 Математическая статистика. Стаценко И.В.

Соседние файлы в папке Лекции